一种知识图谱构建标准表格内容自动识别方法与流程

您所在的位置:网站首页 知识图谱及图谱构建持续update 23 一种知识图谱构建标准表格内容自动识别方法与流程

一种知识图谱构建标准表格内容自动识别方法与流程

2023-04-23 08:37| 来源: 网络整理| 查看: 265

一种知识图谱构建标准表格内容自动识别方法与流程

1.本发明涉及知识图谱构建标领域,具体而言,涉及一种知识图谱构建标准表格内容自动识别方法。

背景技术:

2.目前,为保证电力系统的安全可靠运行和实现供电系统的规范化、标准化、科学化管理,电气设备需要严格按照安全运行管理规程进行维护操作。电力变压器是发电厂和变电所的主要设备之一,其可靠运行对电能稳定传输有着重要意义;3.传统的知识组织和管理方式已经无法满足当前电力系统的需要。当前,以知识表示和知识推理为基础的知识库在电力系统中得到了较多应用,如:结合传统专家系统的智能决策系统,故障定位系统和输电网规划决策等。4.但是,这些知识库大多依赖于专家提取、整理并将数据以图标形式存储于数据库的传统知识管理方式,其所能够存储的知识结构较为单一,且每次更新都需要专业技术人员花费大量时间。特别对于电力调度、设备管理、数据交互、业务查询等知识更迭迅速的领域,现有的知识管理方式已经严重滞后于系统的发展需要。5.电力系统亟需新型、自动、智能的知识组织、存储、提取、推理方法和工具,把海量离散的信息点聚合成为语义网络,引入业界成熟稳定的图谱构建功能体系能让该环节事半功倍。为此,我们提出一种知识图谱构建标准表格内容自动识别方法,以解决上述技术背景中的问题。

技术实现要素:

6.为了弥补以上不足,本发明提供了一种知识图谱构建标准表格内容自动识别方法,旨在改善现有技术电网知识抽取的问题。7.本发明是这样实现的:一种知识图谱构建标准表格内容自动识别方法,包括8.标准知识库模型构建,变压器及断路器设备具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;9.进行知识图谱生产工具模型构建,提供图谱构建过程支撑服务、协助完成变压器及断路器设备标准知识图谱构建,包括:知识建模、提取功能、知识消歧、图谱构建功能、图谱存储与查询功能的方案与实施工具,支持对知识进行抽取、schema构建、图谱构建、修改图谱并实时展示;10.进行可视化建模展现与管理构建,包括手动添加、excel导入以及同步结构化数据的数据结构,其中,实体类、属性类、实体类之间的上下位关系以及实体属性之间的拥有关系;系统采用自顶向下的方式可视化的构建知识图谱schema,支持低成本自定义添加各类目对应的字段属性信息,支持预置大量通用知识图谱schema供系统引用参考,支持从生产源数据库直连中选入数据快速生成schema;其中,表单式建模,支持以交互式表单操作的方式手动添加类目,为这个类目添加属性,添加属性类型与约束,添加关系,添加关系类型与约束。映射式建模,支持同步结构化数据的数据结构,以快速映射的方式直接生成知识建模的目标。管理与展示模块将系统构建的schema,对外提供统一的引用、查询和修改接口;11.还包括有schema存储与管理,三种方式创建的schema在“schema存储与管理”模块进行统一的存储与管理。系统支持在类目下创建子类目,子类目将自动继承父级类目的属性,从而节约管理员对于有从属管理的类目的管理时间。12.标准表格图片自动识别,获取待识别的初始标准表格内容,对标准表格内容的非纯文字图片进行抽取,输出图片资源,需包含图片名称、图片资源文件。13.在本发明的一种优选技术方案中,所述标准知识库模型构建还包括:变压器、断路器设备技术标准知识库构建,从资源的加工入库开始,将数据存入数字资源库,对资源的元数据、数字对象、xml数据等进行管理,构建主网变压器技术标准知识库。14.在本发明的一种优选技术方案中,变压器、断路器设备技术标准知识库需包含标准文件子库、术语子库、章条子库、指标子库、图片子库、表格子库、公式子库等多个子库,各个子库均需支持增加、删除、修改、查询数据,同时需要有前端图形化页面供用户进行操作。15.在本发明的一种优选技术方案中,所述进行知识图谱生产工具模型构建包括图谱存储及查询功能和图谱构建过程支撑服务以及知识提取功能,所述知识提取功能为变压器、断路器设备标准知识提取及图谱构建功能知识提取提供针对不同数据源的服务,所有知识提取服务均以任务的形式在后台进行周期性的运行,保证各类外部数据的持续接入;通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。16.在本发明的一种优选技术方案中,所述知识提取功能还包括变压器及断路器设备标准知识图谱展现、变压器及断路器设备标准知识图谱构建管理以及变压器及断路器设备标准多模态知识理解。17.在本发明的一种优选技术方案中,所述变压器及断路器设备标准知识图谱展现:可视化图谱数据,包括实体属性,实体间关系查询,实体属性查询等;知识图谱数据的分类统计及可视化管理图谱数据内容;支持上层应用,提供查询实体、属性、关系的接口;支持列表、可视化图形等不少于两种建模方式,支持图形化的实体、关系、属性编辑。18.在本发明的一种优选技术方案中,所述变压器及断路器设备标准知识图谱构建管理:支持用户权限分配管理、支持可视化管理图谱存储、支持图谱数据(含schema)人工干预或自动抽取增加、可视化管理、历史图谱可追溯。19.在本发明的一种优选技术方案中,所述变压器及断路器设备标准多模态知识理解:支持从pdf、word、txt等文档中抽取知识,并构建知识图谱;针对不同数据形式,以结构特征的文本表示信息作为分析对象,利用机器学习、自然语言处理语音识别、深度学习等领域成熟的技术方法,结合领域问题和实际经验,结合相关数据库,对素材内容进行文本特征计算、文本特征选择。20.在本发明的一种优选技术方案中,所述知识提取功能还包括支持实体、属性等类型抽取的模型训练;支持可视化展示平台情况,训练过程和结果评估;提供基础分词、实体识别能力;支持语料标注能力,用户可自定义标注标签,支持多模数据的标注;具有完备的知识图谱构建平台化功能,具备知识表示、知识建模、知识抽取、知识融合、知识存储、知识计算等全栈构建能力;具有完备的知识应用平台化功能,具备基于图谱的知识检索、知识问答、在线关系推理的知识应用能力。21.在本发明的一种优选技术方案中,所述图谱存储及查询功能:支持图谱构建过程中的结构化、半结构化等数据源的存储、处理和数据同步更新;支持实体之间的关系管理,包括添加、删除边关系,设置多个关系对象等;可实现知识图谱的实体检索、实体关系计算、特征查询服务等;支持通过完备的标准图查询语句,检索知识图谱内容并进行展现;22.所述图谱构建过程支撑服务:进行技术培训,包括图谱构建工具模型使用、增量知识更新、图谱实体-属性查询等培训内容。23.本发明的有益效果是:本发明知识图谱构建标准表格内容自动识别方法,通过标准知识库模型构建,变压器及断路器设备具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;进行知识图谱生产工具模型构建,提供图谱构建过程支撑服务、协助完成变压器及断路器设备标准知识图谱构建,包括:知识建模、提取功能、知识消歧、图谱构建功能、图谱存储与查询功能的方案与实施工具,支持对知识进行抽取、schema构建、图谱构建、修改图谱并实时展示;进行可视化建模展现与管理构建,包括手动添加、excel导入以及同步结构化数据的数据结构,其中,实体类、属性类、实体类之间的上下位关系以及实体属性之间的拥有关系;系统采用自顶向下的方式可视化的构建知识图谱schema,支持低成本自定义添加各类目对应的字段属性信息,支持预置大量通用知识图谱schema供系统引用参考,支持从生产源数据库直连中选入数据快速生成schema;标准表格图片自动识别,获取待识别的初始标准表格内容,对标准内的表格进行抽取,抽取结果为支持抽取为图片与excel表两类,包含表名、表头、行数据、列数据等;整个项目以标准数字化转型即数字标准建设的现状和需求出发,首先进行顶层设计,然后进行数字化、碎片化和指标化的标准规范制定,同时进行核心关键技术的研究,包括标准文档数字化相关技术,数据加工标引技术以及智能化服务技术等,然后再进行工具集成和开发,实现数字化和知识元化的标准知识库,最后搭建智能化应用平台,面向业务应用提供场景化服务;在标准数字化转型领域围绕着标准结构化、碎片化、指标化、模型化、知识元化、图谱化、智能化等过程进行相关关键技术的研发,构建公司标准知识库和主网设备知识图谱;实现标准化服务数字化、智能化。附图说明24.为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。25.图1是本发明实施方式提供的知识图谱构建标准表格内容自动识别方法的流程示意图;26.图2为本发明实施方式提供的可视化建模展现与管理的组成示意图。具体实施方式27.为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。28.实施例29.请参阅图1-2,本发明提供一种技术方案:一种知识图谱构建标准表格内容自动识别方法,包括30.标准知识库模型构建,变压器及断路器设备具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;31.进行知识图谱生产工具模型构建,提供图谱构建过程支撑服务、协助完成变压器及断路器设备标准知识图谱构建,包括:知识建模、提取功能、知识消歧、图谱构建功能、图谱存储与查询功能的方案与实施工具,支持对知识进行抽取、schema构建、图谱构建、修改图谱并实时展示;32.进行可视化建模展现与管理构建,包括手动添加、excel导入以及同步结构化数据的数据结构,其中,实体类、属性类、实体类之间的上下位关系以及实体属性之间的拥有关系;系统采用自顶向下的方式可视化的构建知识图谱schema,支持低成本自定义添加各类目对应的字段属性信息,支持预置大量通用知识图谱schema供系统引用参考,支持从生产源数据库直连中选入数据快速生成schema;其中,表单式建模,支持以交互式表单操作的方式手动添加类目,为这个类目添加属性,添加属性类型与约束,添加关系,添加关系类型与约束。映射式建模,支持同步结构化数据的数据结构,以快速映射的方式直接生成知识建模的目标。管理与展示模块将系统构建的schema,对外提供统一的引用、查询和修改接口;33.还包括有schema存储与管理,三种方式创建的schema在“schema存储与管理”模块进行统一的存储与管理。系统支持在类目下创建子类目,子类目将自动继承父级类目的属性,从而节约管理员对于有从属管理的类目的管理时间。34.标准表格图片自动识别,获取待识别的初始标准表格内容,对标准表格内容的非纯文字图片进行抽取,输出图片资源,需包含图片名称、图片资源文件。35.在本发明的一种具体实施方式中,所述标准知识库模型构建还包括:变压器、断路器设备技术标准知识库构建,从资源的加工入库开始,将数据存入数字资源库,对资源的元数据、数字对象、xml数据等进行管理,构建主网变压器技术标准知识库。36.在本发明的一种具体实施方式中,变压器、断路器设备技术标准知识库需包含标准文件子库、术语子库、章条子库、指标子库、图片子库、表格子库、公式子库等多个子库,各个子库均需支持增加、删除、修改、查询数据,同时需要有前端图形化页面供用户进行操作。37.在本发明的一种具体实施方式中,所述进行知识图谱生产工具模型构建包括图谱存储及查询功能和图谱构建过程支撑服务以及知识提取功能,所述知识提取功能为变压器、断路器设备标准知识提取及图谱构建功能知识提取提供针对不同数据源的服务,所有知识提取服务均以任务的形式在后台进行周期性的运行,保证各类外部数据的持续接入;通过结构化、非结构化等的数据接入,完成来源库数据到知识图谱的自动化构建,提供结构化数据入图能力。38.在本发明的一种具体实施方式中,所述知识提取功能还包括变压器及断路器设备标准知识图谱展现、变压器及断路器设备标准知识图谱构建管理以及变压器及断路器设备标准多模态知识理解。39.在本发明的一种具体实施方式中,所述变压器及断路器设备标准知识图谱展现:可视化图谱数据,包括实体属性,实体间关系查询,实体属性查询等;知识图谱数据的分类统计及可视化管理图谱数据内容;支持上层应用,提供查询实体、属性、关系的接口;支持列表、可视化图形等不少于两种建模方式,支持图形化的实体、关系、属性编辑。40.在本发明的一种具体实施方式中,所述变压器及断路器设备标准知识图谱构建管理:支持用户权限分配管理、支持可视化管理图谱存储、支持图谱数据(含schema)人工干预或自动抽取增加、可视化管理、历史图谱可追溯。41.在本发明的一种具体实施方式中,所述变压器及断路器设备标准多模态知识理解:支持从pdf、word、txt等文档中抽取知识,并构建知识图谱;针对不同数据形式,以结构特征的文本表示信息作为分析对象,利用机器学习、自然语言处理语音识别、深度学习等领域成熟的技术方法,结合领域问题和实际经验,结合相关数据库,对素材内容进行文本特征计算、文本特征选择。42.在本发明的一种具体实施方式中,所述知识提取功能还包括支持实体、属性等类型抽取的模型训练;支持可视化展示平台情况,训练过程和结果评估;提供基础分词、实体识别能力;支持语料标注能力,用户可自定义标注标签,支持多模数据的标注;具有完备的知识图谱构建平台化功能,具备知识表示、知识建模、知识抽取、知识融合、知识存储、知识计算等全栈构建能力;具有完备的知识应用平台化功能,具备基于图谱的知识检索、知识问答、在线关系推理的知识应用能力。43.在本发明的一种具体实施方式中,所述图谱存储及查询功能:支持图谱构建过程中的结构化、半结构化等数据源的存储、处理和数据同步更新;支持实体之间的关系管理,包括添加、删除边关系,设置多个关系对象等;可实现知识图谱的实体检索、实体关系计算、特征查询服务等;支持通过完备的标准图查询语句,检索知识图谱内容并进行展现;44.所述图谱构建过程支撑服务:进行技术培训,包括图谱构建工具模型使用、增量知识更新、图谱实体-属性查询等培训内容。45.综上所述:本发明知识图谱构建标准表格内容自动识别方法,通过标准知识库模型构建,变压器及断路器设备具备数据入库、资源管理、资源安全管理、版本管理、体系管理和数据存储、备份等功能,并抽象共享服务能力对外开放;进行知识图谱生产工具模型构建,提供图谱构建过程支撑服务、协助完成变压器及断路器设备标准知识图谱构建,包括:知识建模、提取功能、知识消歧、图谱构建功能、图谱存储与查询功能的方案与实施工具,支持对知识进行抽取、schema构建、图谱构建、修改图谱并实时展示;进行可视化建模展现与管理构建,包括手动添加、excel导入以及同步结构化数据的数据结构,其中,实体类、属性类、实体类之间的上下位关系以及实体属性之间的拥有关系;系统采用自顶向下的方式可视化的构建知识图谱schema,支持低成本自定义添加各类目对应的字段属性信息,支持预置大量通用知识图谱schema供系统引用参考,支持从生产源数据库直连中选入数据快速生成schema;标准表格图片自动识别,获取待识别的初始标准表格内容,对标准内的表格进行抽取,抽取结果为支持抽取为图片与excel表两类,包含表名、表头、行数据、列数据等;整个项目以标准数字化转型即数字标准建设的现状和需求出发,首先进行顶层设计,然后进行数字化、碎片化和指标化的标准规范制定,同时进行核心关键技术的研究,包括标准文档数字化相关技术,数据加工标引技术以及智能化服务技术等,然后再进行工具集成和开发,实现数字化和知识元化的标准知识库,最后搭建智能化应用平台,面向业务应用提供场景化服务;在标准数字化转型领域围绕着标准结构化、碎片化、指标化、模型化、知识元化、图谱化、智能化等过程进行相关关键技术的研发,构建公司标准知识库和主网设备知识图谱;实现标准化服务数字化、智能化。46.还包括图谱知识生产模块,将结构化和非结构化数据转换形成知识图谱数据,并建立实体及实体间关系。具体功能包括:支持从自由文本中识别实体、关系、属性,可通过人工干预模型的方式,优化自由文本抽取的准确率;支持从结构化数据源中直接转化数据,与知识图谱schema映射对齐,自动生产知识图谱数据;支持自定义知识图谱抽取模型,包括调优模型、优化词表、定义模板等;支持机器学习模型、机器规则及人工方式进行实体、属性、关系的映射、清洗、融合、归一、建边、补全;图谱知识生产全流程支持可视化、白盒化以及审核干预。47.图谱知识生产模块依托知识生产子系统提供整体架构支持,依托模型策略托管系统整体提供算法的训练、执行与预测能力,完成四个大子模块的串行执行:知识抽取、知识加工、知识融合与知识关联。48.知识加工,对知识抽取的结果进行基于schema的属性映射,使得抽取出的属性名符合schema中定义的等义属性;对知识抽取的属性值进行基于正则表达式的清洗,使得抽取的属性值符合schema中定义的属性约束条件。49.知识融合,知识图谱数据往往是多来源的,不同来源抽取出的相同实体需要在实例层面进行统一的消歧归一,不同来源抽取的同名属性需要在实例层面进行统一的属性择优。本模块的消歧策略主要实现了:文本相似比较、语义相似比较、各类性属性值(例如地址、电话、日期、数值单位)比较三类属性比较算法,上层通过bayes模型、xgboost模型、xgrank模型对各类比较算法的结果进行及其学习与拟合打分。50.知识关联,知识图谱schema定义阶段定义的属性为关系类型,在图谱知识生产的最后阶段需要进行关联建边,本模块实现了基于规则配置的建边策略,用户可以基于字符串、数值等类型的属性,判定是否应该将两个实体建立边关系。对于已经建立完成的图谱,支持使用规则配置与知识表示学习推断两种方式,补齐和挖掘出当前知识图谱实体之间的潜在关系。51.知识存储子系统,包括图谱存储引擎,文本存储引擎。图谱存储引擎构建超大规模高性能分布式图索引及存储引擎。支持常见的图形模型property graph和类似gremlin的图灵完备的图查询语言,提供图原生的存储引擎,存储架构上支持多种的存储介质/系统,内存或直接ssd,具备分布式存储能力,满足海量图谱数据的存储需求,以及多活实例,快速故障切换,实现服务的高可用能力。文本知识存储引擎整合经过了深度效果与性能优化的elasticsearch,提供面向大规模文本数据的存储检索系统,系统容量可扩展,且提供一系列可优化的配置。52.图谱存储引擎:53.图数据库bgraph是高性能商用图数据库,适用于数据高度关联并进行深度分析的应用场景。bgraph的核心是高性能图形数据库引擎,在知识图谱系统中应用和实践多年,能支持数亿级的实体和毫秒级的响应延迟,提供分布式和高可用能力,满足企业级应用的需求。54.以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3